代表性相似性分析是一种来自认知神经科学的方法,有助于比较来自两个不同数据源的表示。在本文中,我们建议使用代表性分析来探测代码语言模型中的语义基础。我们通过使用IBM Codenet数据集中的数据来探究Codebert模型的语义接地。通过我们的实验,我们表明当前的训练方法不会在代码的语言模型中诱导语义基础,而是专注于优化基于形式的模式。我们还表明,即使在语义相关任务上进行了一些微调,也会大大增加Codebert的语义基础。我们对Codebert模型的输入方式的消融表明,在单峰输入(仅代码)上使用双峰输入(代码和自然语言)(仅代码)可以在语义微调过程中提供更好的语义接地和样本效率。最后,我们在代码中使用语义扰动的实验表明,Codebert能够牢固地区分语义正确和不正确的代码。
translated by 谷歌翻译
最近的工作表明,分布式字表示可以从儿童定向语音编码抽象信息。在本文中,我们使用Diachronic分布词表示来对儿童的词汇发展进行时间建模和分析。与以前的所有工作不同,我们使用时间切片的语料库来在课程 - 学习环境下学习儿童语音和儿童定向语音的分布式字表示。在我们的实验中,我们执行一个词汇分类任务,绘制儿童的语义和句法知识获取轨迹。接下来,我们对历时的代表性的改变进行线性混合效果,以研究输入字频率在儿童中的单词获取速率中的作用。我们还使用代表性相似性分析对来自成年人的词汇知识转移进行细粒度分析。最后,我们对我们的模型的历史言论进行了定性分析,这揭示了儿童精神词典中的接地和词汇。我们的实验表明了探讨了词汇发展中的历史分布词表示的易用性和有效性。
translated by 谷歌翻译